CNN精确深度预测的能力是在实际视觉上的应用中广泛使用的主要挑战,例如增强的相机跟踪和密集映射。本文旨在回答以下问题:我们可以在视觉SLAM算法的帮助下调整深度预测CNN,即使CNN没有针对当前的操作环境训练,以便受益于SLAM性能?为此,我们提出了一种新的在线适应框架,由两个互补过程组成:一个SLAM算法用于生成微调深度预测的关键帧和使用在线适应深度来提高地图质量的另一算法。一旦拆除了潜在的噪声地图点,我们就会执行全局光度束调节(BA)以提高整体的SLAM性能。在我们自己的实验环境中的基准数据集和真正机器人的实验结果表明,我们的提出方法提高了大满重建精度。我们展示了在培训损失中使用正则化作为防止灾难性遗忘的有效手段。此外,我们将我们的在线适应框架与最先进的预先训练的深度预测CNN进行比较,以表明我们的在线适应深度预测CNN优于已经在大量数据集上培训的深度预测CNN。
translated by 谷歌翻译
For saving cost, many deep neural networks (DNNs) are trained on third-party datasets downloaded from internet, which enables attacker to implant backdoor into DNNs. In 2D domain, inherent structures of different image formats are similar. Hence, backdoor attack designed for one image format will suite for others. However, when it comes to 3D world, there is a huge disparity among different 3D data structures. As a result, backdoor pattern designed for one certain 3D data structure will be disable for other data structures of the same 3D scene. Therefore, this paper designs a uniform backdoor pattern: NRBdoor (Noisy Rotation Backdoor) which is able to adapt for heterogeneous 3D data structures. Specifically, we start from the unit rotation and then search for the optimal pattern by noise generation and selection process. The proposed NRBdoor is natural and imperceptible, since rotation is a common operation which usually contains noise due to both the miss match between a pair of points and the sensor calibration error for real-world 3D scene. Extensive experiments on 3D mesh and point cloud show that the proposed NRBdoor achieves state-of-the-art performance, with negligible shape variation.
translated by 谷歌翻译
Named entity recognition is a traditional task in natural language processing. In particular, nested entity recognition receives extensive attention for the widespread existence of the nesting scenario. The latest research migrates the well-established paradigm of set prediction in object detection to cope with entity nesting. However, the manual creation of query vectors, which fail to adapt to the rich semantic information in the context, limits these approaches. An end-to-end entity detection approach with proposer and regressor is presented in this paper to tackle the issues. First, the proposer utilizes the feature pyramid network to generate high-quality entity proposals. Then, the regressor refines the proposals for generating the final prediction. The model adopts encoder-only architecture and thus obtains the advantages of the richness of query semantics, high precision of entity localization, and easiness of model training. Moreover, we introduce the novel spatially modulated attention and progressive refinement for further improvement. Extensive experiments demonstrate that our model achieves advanced performance in flat and nested NER, achieving a new state-of-the-art F1 score of 80.74 on the GENIA dataset and 72.38 on the WeiboNER dataset.
translated by 谷歌翻译
近年来,旨在在衣服变化下与人身份相匹配的换衣人重新识别(CC-REID)是近年来的一个新的研究主题。但是,典型的基于生物识别的CC-REID方法通常需要繁琐的姿势或身体部位估计器来从人类生物特征性状中学习布置性特征,这带有高计算成本。此外,由于监视图像的分辨率下降,性能受到了显着限制。为了解决上述限制,我们为CC-REID提出了一个有效的身份敏感知识传播框架(DECKPRO)。具体而言,引入了一个布 - 丝毫空间注意模块,以通过从人解析模块中获取知识来消除服装外观的注意力。为了减轻人类面孔的分辨率退化问题和对矿山身份敏感的提示,我们建议使用先前的面部知识恢复缺失的面部细节,然后将其传播到较小的网络。训练后,不再需要进行人类解析或面部修复的额外计算。广泛的实验表明,我们的框架的表现优于最先进的方法。我们的代码可在https://github.com/kimbingng/deskpro上找到。
translated by 谷歌翻译
神经形态计算是一个新兴的研究领域,旨在通过整合来自神经科学和深度学习等多学科的理论和技术来开发新的智能系统。当前,已经为相关字段开发了各种软件框架,但是缺乏专门用于基于Spike的计算模型和算法的有效框架。在这项工作中,我们提出了一个基于Python的尖峰神经网络(SNN)模拟和培训框架,又名Spaic,旨在支持脑启发的模型和算法研究,并与深度学习和神经科学的特征集成在一起。为了整合两个压倒性学科的不同方法,以及灵活性和效率之间的平衡,SpaiC设计采用神经科学风格的前端和深度学习后端结构设计。我们提供了广泛的示例,包括神经回路模拟,深入的SNN学习和神经形态应用,展示了简洁的编码样式和框架的广泛可用性。 Spaic是一个专用的基于SPIKE的人工智能计算平台,它将显着促进新模型,理论和应用的设计,原型和验证。具有用户友好,灵活和高性能,它将有助于加快神经形态计算研究的快速增长和广泛的适用性。
translated by 谷歌翻译
为了应对人类检测对标签数据和隐私问题的不断增长的需求,合成数据已被用作替代品,并在人类检测和跟踪任务中显示出令人鼓舞的结果。我们参加了第七届基准测试多目标跟踪(BMTT)的研讨会,主题是“合成数据可以带我们多远”?我们的解决方案Pietrack是根据合成数据开发的,而无需使用任何预训练的权重。我们提出了一种自我监督的域适应方法,该方法能够减轻合成(例如Motsynth)和真实数据(例如Mot17)之间的域移位问题,而无需涉及额外的人类标签。通过利用拟议的多尺度合奏推理,我们在MOT17测试集中获得了58.7的最终HOTA得分,在挑战中排名第三。
translated by 谷歌翻译
基于对比度学习的基于自我监督的骨架识别引起了很多关注。最近的文献表明,数据增强和大量对比度对对于学习此类表示至关重要。在本文中,我们发现,基于正常增强的直接扩展对对比对的表现有限,因为随着培训的进展,对比度对从正常数据增强到损失的贡献越小。因此,我们深入研究了对比对比对的,以进行对比学习。由混合增强策略的成功激励,通过综合新样本来改善许多任务的执行,我们提出了Skelemixclr:一种与时空的学习框架,具有时空骨架混合增强(Skelemix),以补充当前的对比样品,以补充当前的对比样品。首先,Skelemix利用骨架数据的拓扑信息将两个骨骼序列混合在一起,通过将裁切的骨骼片段(修剪视图)与其余的骨架序列(截断视图)随机梳理。其次,应用时空掩码池在特征级别上分开这两个视图。第三,我们将对比度对与这两种观点扩展。 SkelemixClr利用修剪和截断的视图来提供丰富的硬对比度对,因为它们由于图形卷积操作而涉及彼此的某些上下文信息,这使模型可以学习更好的运动表示以进行动作识别。在NTU-RGB+D,NTU120-RGB+D和PKU-MMD数据集上进行了广泛的实验表明,SkelemixClr实现了最先进的性能。代码可在https://github.com/czhaneva/skelemixclr上找到。
translated by 谷歌翻译
表格数据是业务应用程序中最常见的数据存储格式之一,范围从零售,银行和电子商务。这些应用在很大程度上依赖机器学习模型来取得业务成功。学习表格数据的关键问题之一是将有影响力的特征与所有预定特征区分开。假设所有实例都具有相同的影响力子集,那么全球功能选择已经进行了很长时间。但是,不同的实例依赖于实践中的不同特征子集,这也引起了实例的特征选择,在最近的研究中受到了越来越多的关注。在本文中,我们首先提出了一种新的方法,以发现表格数据的实例影响特征(DIWIFT),其核心是引入影响函数以衡量实例特征的重要性。 Diwift能够在不同实例中自动发现不同尺寸的影响力子集,这与全局特征选择不同,后者考虑了具有相同影响力特征子集的所有实例。另一方面,与以前的实例功能选择不同,DIWIFT最大程度地减少了验证集的验证损失,因此对于训练数据集和测试数据集中存在的分配变化更为强大,这在表格数据中很重要。最后,我们对合成数据集和现实数据集进行了广泛的实验,以验证我们的diwift的有效性,并将其与基线方法进行了比较。此外,我们还通过一些消融实验来证明我们方法的鲁棒性。
translated by 谷歌翻译
现代的多层感知器(MLP)模型在不自我注意力的情况下学习视觉表现方面显示了竞争成果。但是,现有的MLP模型不擅长捕获本地细节,并且缺乏人类配置的先验知识,这限制了其骨骼表示学习的模型能力。为了解决这些问题,我们提出了一个名为GraphMLP的简单而有效的图形增强的MLP样结构,该体系结构将MLP和图形卷积网络(GCN)组合在3D人类姿势估计的全球 - 局部 - 单位图形统一体系中。GraphMLP将人体的图结构结合到MLP模型中,以满足域特异性需求,同时允许局部和全局空间相互作用。广泛的实验表明,所提出的GraphMLP在两个数据集(即Human3.6M和MPI-INF-3DHP)上实现了最先进的性能。我们的源代码和预估计的模型将公开可用。
translated by 谷歌翻译
旨在生成新的字体的几个示例字体(FFG),由于劳动力成本的显着降低,它引起了人们的关注。典型的FFG管道将标准字体库中的字符视为内容字形,并通过从参考字形中提取样式信息将其转移到新的目标字体中。大多数现有的解决方案明确地删除了全球或组件的参考字形的内容和参考字形的样式。但是,字形的风格主要在于当地细节,即激进,组件和笔触的风格一起描绘了雕文的样式。因此,即使是单个字符也可以包含在空间位置分布的不同样式。在本文中,我们通过学习提出了一种新的字体生成方法1)参考文献中的细粒度局部样式,以及2)内容和参考文字之间的空间对应关系。因此,内容字形中的每个空间位置都可以使用正确的细粒样式分配。为此,我们对内容字形的表示作为查询和参考字形表示作为键和值的跨注意。交叉注意机制无需明确地删除全球或组件建模,而是可以在参考文字中遵循正确的本地样式,并将参考样式汇总为给定内容字形的精细粒度样式表示。实验表明,所提出的方法的表现优于FFG中最新方法。特别是,用户研究还证明了我们方法的样式一致性显着优于以前的方法。
translated by 谷歌翻译